Optimización de Política Certificada para Bandidos Causales Anidados mediante Riesgo PAC-Bayes Políticas certificadas optimizadas en bandidos causales anidados con PAC-Bayes. Enfoque avanzado con garantías teóricas para aprendizaje por refuerzo. 2026-05-30 · 1 min